DailyReport: Evaluación de agentes de búsqueda en tareas diarias
Descubre cómo el nuevo benchmark DailyReport evalúa agentes de búsqueda basados en IA en tareas cotidianas. Resultados muestran que aún no cumplen expectativas.
Descubre cómo el nuevo benchmark DailyReport evalúa agentes de búsqueda basados en IA en tareas cotidianas. Resultados muestran que aún no cumplen expectativas.
¿Sabías que los agentes de búsqueda multimodal penalizan herramientas útiles? TAPO corrige este error con transferencia de crédito, mejorando el aprendizaje sin costo extra.
COMPASS es un nuevo marco de alineación con MCTS que asegura agentes de búsqueda sin perder utilidad, usando menos datos.
¿Sabías que los mejores modelos de IA solo aciertan el 35% en búsquedas locales? Descubre LocalSearchBench, el primer benchmark de búsqueda agéntica. ¡Entra!
Descubre cómo el enmascaramiento de observaciones obsoletas afecta a los agentes de búsqueda. Aprende cuándo mejora y cuándo empeora el rendimiento.
LongTraceRL mejora el razonamiento en contexto largo usando recompensas de rúbrica y distractores por niveles desde trayectorias de agentes de búsqueda.